人工智慧(Artificial Intelligence, AI)是一門讓電腦能夠執行需要「人類智慧」才能完成的工作的科學與技術。AI並非單一技術,而是包含了多種方法與分支。
1.1 AI的範疇
1.2 AI 與 ML、DL 的關係
ML (Machine Learning) → 透過資料學習模式,是 AI 的一個方法。
DL (Deep Learning) → 使用多層神經網路進行複雜特徵提取,是 ML 的重要子領域。
機器學習的核心思想是「用資料讓模型學習,而不是人工硬編規則」。
2.1 類型
監督式學習 (Supervised Learning)
提供輸入(X)與對應輸出(Y)。
範例:垃圾郵件分類、房價預測。
非監督式學習 (Unsupervised Learning)
只有輸入(X),沒有標籤。
範例:聚類(Clustering)、主成分分析(PCA)。
強化學習 (Reinforcement Learning, RL)
透過與環境互動獲取「獎勵/懲罰」來學習策略。
範例:AlphaGo、遊戲 AI。
2.2 深度學習 (Deep Learning, DL)
使用神經網路(Neural Networks),具備多層隱藏層。
可自動學習高維特徵,適合處理語音、影像、文字。
自然語言處理 (Natural Language Processing, NLP)是讓機器能理解、生成並運用人類語言。早期的自然語言處理主要是依靠規則與統計的方法,例如:規則式系統,依靠人工定義的文法與關鍵字,這種方式相對來說比較僵硬。第二版的處理方式稱為:統計式NLP,例如:n-gram 語言模型,他能夠預測一個詞出現在句子中的機率,以此來選擇下文。
而進入深度學習時代後,神經網路模型(如 RNN、LSTM)能捕捉更多語境關係,但仍存在記憶範圍有限的問題。直到Transformer架構(Vaswani et al., 2017)的出現,NLP才發生了重大突破,而後Transformer成為GPT(Generative Pre-trained Transformer)等大型語言模型的基礎。
1.1 RNN / LSTM 雖能處理序列資料,但因為記憶範圍有限的關係,兩者存在著長距離依賴問題,難以捕捉遠距詞語的關係,且訓練速度慢。Transformer則使用自注意力機制 (Self-Attention),使模型可以同時關注句子中的所有詞彙,捕捉長距依賴關係完全取代RNN。
1.2 Transformer的架構
Embedding:將文字轉換為向量表示。
Position Encoding:對詞向量補充序列順序資訊。
3.Multi-Head Self-Attention:
* 輸入:Embedding + Position Encoding
* 輸出:多頭注意力向量,捕捉詞與詞之間的關聯。
4.Residual Connection + Layer Normalization:
* 殘差連接:將原始輸入與注意力輸出相加。
* LayerNorm:穩定數值,避免梯度消失。
5.Feed Forward Layer:
* 兩層前饋全連接網路 (含非線性激活函數)。
* 增強模型非線性表達能力。
6.Residual Connection + Layer Normalization:
* 將 FFN 輸出與前一步輸入相加,再做正規化。
[輸入文字]
│
▼
[Embedding ]
│
▼
[Position Encoding]
│
▼
┌───────────────┐
│ Multi-Head │
│ Self-Attention│
└───────────────┘
│
▼
[Residual Connection + Layer Normalization]
│
▼
[Feed Forward Layer]
│
▼
[Residual Connection + Layer Normalization]
│
▼
[輸出表示]
1.3 Attention 的核心公式
對於一組詞向量:
Query (Q):目前關注的詞。
Key (K):其他詞的特徵。
Value (V):資訊內容。
Attention 計算:
Attention(Q, K, V) = softmax(QK^T / √d_k) V
LLM 是一種在大量文本資料上訓練的深度學習模型,具備理解與生成自然語言的能力。
特徵:
龐大的參數數量:通常擁有數十億甚至上千億的參數,能捕捉語言的細緻關係。
通用性:不需要針對特定任務重新設計,透過「提示(Prompt)」即可執行翻譯、摘要、對話、程式碼生成等任務。
上下文理解:能依據輸入文本的語境,生成連貫且符合邏輯的輸出。
代表性模型:
GPT 系列(OpenAI):強調生成能力,用於對話與創造性任務。
BERT(Google):雙向編碼器,擅長理解任務,如情感分析與問答。
LLaMA、Falcon、Mistral:開源社群推動的 LLM,研究與開發者可自由使用。